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基于 深度 玻 尔 兹 曼 机 的 乐器 分 类 问题 研究 
A 畅 ， 米 红 娟 


(兰州 财经 大 学 信息 工程 学 院 ， 兰 州 730020) 


摘 要: 应 用 传统 浅 层 模型 处 理 乐器 分 类 任务 存在 非 线性 拟 合 能 力 较 差 的 问题 ， 使 分 类 准确 率 得 不 到 有 效 保 证 ， 有 必 
要 引入 深度 学 习 方 法 提升 复杂 任务 的 非 线性 建 模 能 力 。 将 深度 玻 尔 座 曼 机 作为 特征 提取 器 提取 表达 能 力 更 强 的 数据 特 
征 ， 分 别 以 SVM 与 Softmax 分 类 器 作为 深度 神经 网 络 的 顶层 设置 形成 DBM+SVM 组 合 模 型 与 DBM+Softmax 组 合 模 
型 ， 引 入 平均 场 理论 和 动量 项 因子 优化 网 络 训练 过 程 。 将 上 述 两 组 模型 及 单一 SVM 分 类 器 在 $ 类 乐器 音频 数据 上 进 
行 对 比 实验 ， 两 种 深度 学 习 组 合 模型 的 分 类 准确 率 分 别 达 到 89.29% 和 87.5%， 与 传统 浅 层 分 类 方法 SVM 的 73.21% 的 
准确 率 相 比 优势 明显 。 实 验 结 果 表 明 深 度 玻 尔 访 曼 机 在 乐器 分 类 领域 的 应 用 颇具 前 景 。 
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Research on musical instrument classification based on deep Boltzmann machine 
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Abstract: The application of traditional shallow model to instrument classification task had the problem of poor nonlinear fitting 
ability, so that the accuracy of classification was not guaranteed effectively. It was necessary to introduce deep learning method 
to improve the nonlinear modeling ability of complex tasks. Deep Boltzmann machine was used as feature extractor to Abstract: 
more expressive deep learning features. SVM and Softmax classifier were respectively used as top layer of deep neural network 
to form DBM + SVM and DBM + Softmax combined model. Besides, the mean field theory and momentum factor were 
introduced to optimize the network training process. The above two sets of models and single SVM classifier was compared on 
5 kinds of musical instruments audio data. The classification accuracy of the two types of deep learning combination models 
reached 89.29% and 87.5%respectively, compared with the accuracy of the traditional shallow classification method SVM of 
73.21% . The experimental results show that the application of deep Boltzmann machine in the field of musical instrument 
classification is very promising. 
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0 az 行 分 析 并 应 用 于 乐器 识别 问题 ， 取 得 了 超过 70% 的 准确 率 。 文 
献 [3] 通 过 提取 和 分 析 由 10 种 西方 乐器 演奏 的 大 量 音乐 片段 的 
乐器 分 类 任务 就 是 要 求 分 类 系统 能 够 根据 输入 的 音乐 信息 。 频谱 特征 和 倒 谱 特征 , 并 通过 实验 证 明 用 倒 谱 特征 训练 的 SVM 
判断 演奏 该 乐曲 的 乐器 。 这 一 任务 对 于 音乐 信息 检索 来 说 至 关 ”分 类 器 的 分 类 准确 率 较 频谱 特征 的 训练 结果 有 较 大 幅度 的 提升 。 
重要 ， 因 为 目前 网 络 上 有 大 量 缺 乏 数据 标签 的 音频 文件 ， 尤 其 ”特征 量 的 表达 能 力 对 训练 分 类 器 来 说 至 关 重 要 ， 构 建 高 性 能 的 
是 人 工 标签 中 的 “乐器 ”属性 值 经 常 处 于 缺 省 状态 ， 这 就 意味 ”混合 特征 量 也 逐渐 成 为 一 种 趋势 向 。 文 献 [5] 在 每 一 个 组 建 DBN 
着 用 户 在 以 乐器 名 称 作为 关键 字 搜索 时 ， 基 于 文本 的 音乐 检索 。” 的 RBM 的 可 视 层 和 隐 含 层 间 设 置 一 个 用 以 防止 过 拟 合 
很 难 返 回 准确 的 结果 信息 。 文 献 [1] 提 取 了 乐器 音频 数据 的 。” Dropout 层 来 提升 模型 的 泛 化 能 力 ， 并 引入 一 个 能 够 表征 权 值 
MFCC 系数 以 及 LPC 系数 (线性 预测 系数 ) 作 为 特征 量 ， 并 结合 影响 大 小 的 动量 用 以 平衡 模型 在 训练 速度 和 稳定 性 上 的 关系 ， 
GMM 构建 声学 模型 , 采用 SVM 作为 分 类 器 训练 得 到 9 种 乐器 ”将 其 应 用 于 中 国 传统 乐器 的 分 类 识别 问题 ， 取 得 了 较 高 的 分 类 
的 分 类 准确 率 仅 为 70%， 这 就 是 乐器 分 类 较为 早期 的 研究 。 近 准确 率 。 而 Dropout 方法 在 神经 网 络 中 的 早期 应 用 是 由 Hinton 
F 来 ，Petros 记 从 乐器 音频 数据 中 提取 调幅 -调频 调制 特征 量 进 ” 等 人 [6] 提 出 的 , 通过 在 训练 过 程 中 抑制 半数 特征 检测 器 的 工作 
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录用 稿 
来 达到 缓解 模型 过 拟 合 的 效果 。 


深度 学 习 方 法 可 以 有 效 训练 
表达 能 力 较 强 的 特征 量 。 因 此 ， 


大 量 无 标签 数据 ， 并 从 中 提取 


基于 深度 玻 尔 效 曼 机 的 乐器 分 


类 方法 是 一 种 基于 内 容 的 分 类 模式 ， 应 用 深度 学 习 技术 的 音频 


能 够 有 效 降低 数据 管理 成 本 


深度 学 习 的 概念 起 源 于 人 工 智能 的 相关 研究 ， 从 简单 的 单 


分 类 系统 是 更 贴近 用 户 实际 需求 且 

的 分 类 系统 。 

1 ”相关 理论 

1.1 深度 学 习 的 概念 

层 感 知 机 发 展 到 隐 层 数目 不 受 限 的 多 层 感知 机 ， 其 


概念 已 逐步 


形成 。G.E. Hinton Æ 2006 年 发 表 于 《科学 》 和 杂志 上 的 一 篇 


文章 中 采用 逐 层 预 训练 


的 方式 有 效 解决 了 传统 反 向 传播 算法 吻 


陷入 局 部 最 优 的 问题 ，1 


成 功 构 建 了 具有 多 个 隐 含 
路 包含 两 个 阶段 : 第 一 阶段 的 无 


BRE 


此 开启 了 深度 学 习 的 研究 热潮 。 文 中 
言 念 网 络 (DBN)， 其 研究 思 


监督 学 习 。 用 无 标签 初始 数据 


依次 对 神经 网 络 的 每 一 层 进行 训 


多 层 神经 网 络 拆 分 成 为 独立 的 多 


常 有 效 。 第 二 阶段 的 有 监督 学 习 。 采 用 反 向 传播 算法 ， 利 ) 
自 上 而 下 地 对 整个 网 络 的 权 值 进行 微调 。 
在 网 络 结构 的 构建 中 , 如 果 用 m 层 结构 能 多 
层 结 构 的 时 候 ， 则 可 


标签 数据 


组 信息 ， 那 么 当 采 用 m-1 
量 的 参数 才能 够 达到 同样 的 效果 


练 ， 


个 


前 一 层 的 训练 
层 的 输入 。 在 训练 整个 深度 网 络 存 在 困难 的 情况 下 ， 采 | 


结果 作为 后 


将 


单 层 结构 进行 训练 的 思路 非 


台 b 后 
Hu rf 


多 简 


JA 


易 地 表达 一 
要 指数 级 数 


， 同 时 模型 的 泛 化 能 力也 会 大 


找到 并 不 断 优化 处 理 复 杂 网 络 问 


折扣 B9， 而 深度 学 习 突 破 了 网 络 层 数 对 训练 有 效 性 的 限于 
题 的 方法 MM。 另外 ， 与 适 | 


浅 层 结构 的 学 习 算 法 相 比 ， 深 度 
完成 学 习 过 程 ， 提 取 表 达能 力 更 


预测 ， 以 期 达到 更 好 的 效果 [0。 
1.2 深度 玻 尔 兹 曼 机 


学 习 方 法 主要 依靠 计算 机 


强 的 特征 并 用 于 最 终 的 分 类 或 


im 


, 


JF 
自主 


深度 玻 尔 效 曼 机 (DBM) 是 玻 尔 效 曼 机 (BMD) 的 一 种 特殊 形 


式 ， 与 构建 深度 信念 网 络 的 受 限 玻 尔 兹 曼 机 (RBM) 
在 于 只 有 相 邻 两 个 层次 间 的 神经 元 可 以 连接 ， 同 一 
邻 层 次 中 的 神经 元 之 间 没 有 连 线 ， 而 二 者 的 差异 体现 在 RBM 
只 包含 一 个 隐 舍 层 , 而 DBM 可 以 有 多 个 隐 含 层 。 DBM 虽然 在 


的 相似 之 处 


层次 或 不 相 


层级 结构 上 类 似 DBN， 都 是 多 层次 的 生成 式 模型 ， 但 DBM 是 


无 向 图 模型 023， 其 


网 络 结构 中 的 所 有 连接 都 是 无 向 的 ， 而 在 


DBN 网 络 中 只 有 最 高 
所 示 。 
hs 
P 
" 


人 b) 深 度 玻 尔 兹 曼 机 


图 1 DBN 与 DBM 的 网 络 结构 


S 


两 层 的 连接 是 无 向 的 ， 二 者 的 差异 如 图 1 


A H, F: 基于 深度 玻 尔 论 曙 机 的 乐器 分 类 问题 研究 
段 设 一 个 深度 玻 尔 兹 曼 机 含有 m 个 隐 含 层 , 令 其 隐 含 层 向 


E 


为 = (ha ha en)» k=1, 2, --., m. 可 视 层 向 量 M 和 第 一 个 
含 层 癌 的 连接 权 值 向 量 表示 为 wa， 第 ed 个 隐 含 层 与 第 K 个 
gm 


Ez 


G 


Ü 


Ez 


[5 


层 之 间 的 权 值 向 量 表示 为 zx， 此 时 ,2 入 k 乏 me。 令 b, 表 示 可 
视 层 的 偏 置 ，b# 表 示 第 k 个 隐 含 层 的 偏 置 ，1 志 km。 可 以 令 
有 =v，bo=b,， 则 可 将 该 DBM 的 能 量 函数 定义 为 
uv, hi, hz, ++, hml0) = —v (WT h — (4)  QW?)* h; — -- 
(hn) QV P)T hv b, — (8) b; (hy) b" 
ws à a0 40 (WY)T hy -Ik ohm) b" 


pu 


(1) 


其 中 :6 - (IW* b, b) (1<k<m) 是 模型 参数 。 


由 己 知 能 量 函 数 的 定义 ， 可 进一步 推导 DBM 关于 可 视 层 


v 的 概率 分 布 如 下 : 


可 
Hi 


p(v|8) = se ula E exp(—u(v, hi, hs, ---, ha18)) (2) 


其 中 :Z 为 归 一 化 因子 《在 此 使 用 剖 分 函数 ) 。 
结合 概率 图 模型 的 结构 及 相关 理论 ， 还 可 对 DBM 推导 出 
如 下 条 件 概率 计算 公式 : 


ph, 8) = IT;p(vjlhi, 0) 
p(v; E 1|hi) = sigmoid(»;; wi hi; + b,;) 


G3) 


p his, hes) = ipCuslhii haa) 
pO; = 1h heu) = sigmoid(Y.; wi hyaj + Ljw hes; + br, 1xkzm-1 


(4) 

| Plhmlhm-1) = Hi Pmi lhm-1) 6) 
Plhmi = 1hm-1) = sigmoid (Xj wl? hm_1; + br”) 

sigmoid(x) = (6) 


其 中 sigmoid(x) 是 激活 函数 ， 一 方面 规范 神经 元 的 输出 结果 ， 
另 一 方面 是 为 神经 网 络 的 处 理 加 入 非 线性 因子 ， 毕 竞 实际 应 用 
中 处 理 的 绝 大 部 分 是 线性 不 可 分 问题 ， 作 用 于 神经 元 的 激活 函 
数 恰 能 有 效 处 理 类 似 情况 。 
近年 来 ， 深 度 玻 尔 效 曼 机 在 模式 识别 、 自 然 语 言 处 理 、 
像 及 语音 识别 等 领域 逐渐 表现 出 与 其 他 算法 相 比 的 竞争 优 
蒋 文 等 人 03 将 DBM 理论 用 于 改进 典型 相关 分 析 算 法 (CCA), 通 
过 DBM 方法 提取 可 视 层 特征 与 隐 含 层 特征 ， 并 在 此 基础 上 结 
合 有 标签 数据 构建 串 行 融合 特征 集 与 并 行 特 征 融 
多 个 数据 库 的 验证 中 展现 了 优 于 其 他 几 种 传统 算法 的 识别 性 能 。 
文献 [14] 将 输出 结构 的 高 阶 相关 性 纳入 考虑 范围 和 
尔 效 曼 机 为 图 像 分 割 任务 提供 先 验 形 状 信息 ， 提 出 了 用 
输出 空间 特征 表示 的 条 件 深度 玻 尔 兹 曼 机 模型 (CDBM)， 并 在 
Part Labels 人 脸 数 据 集 上 进行 有 效 性 验证 ， 取 得 了 优 于 传统 算 


法 的 分 割 效 果 。 
2 ”模型 搭建 
2.1 平均 场 理论 


平均 场 理 论 最 初 产生 于 统计 力学 领域 ， 但 目前 已 被 广泛 应 
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录用 稿 JE 畅 ， 等 : 基于 深度 玻 尔 阁 曼 机 的 乐器 分 类 问题 研究 


用 于 网 络 传播 机 制 nal、 无 线 自 组 织 网 络 09 和 站 点 优化 17 等 其 他 。” 束 一 次 样本 训练 时 产生 的 累计 误差 ( 常 采用 均 方 根 误差 ) ; T 代 
领域 。 平 均 场 理论 的 基本 思路 是 将 多 体 问题 转换 为 单 体 问题 ， "AM 
用 单 体 有 效 场 来 着 代 其 他 所 有 单个 节点 对 目前 研究 节点 的 个 性 OER IRIURE Qv) — 75,0 9 代 
化 影响 ， 因 此 该 理论 指导 研究 人 员 在 处 理 问 题 时 不 依赖 于 特殊 。 表 前 一 次 训练 的 权 值 调整 量 w(n) 与 当前 训练 的 负 梯 度 下 降 方 
点 的 作用 ， 而 是 用 整个 环境 的 综合 作用 近似 替代 单个 影响 粒子 “向 之 间 的 夹 角 nal。 根 据 式 (7) 的 表达 ; 
的 效果 。 a) 当 9 ,0 时 ， 前 一 次 训练 的 权 值 调整 量 与 当前 负 梯度 方向 
在 本 文 的 预 处 理 标准 下 ， 音 频数 据 经 过 分 帧 加 窗 操作 后 ， ”几乎 相同 ， 表 明 前 一 次 训练 的 结果 对 此 次 训练 有 较 大 的 正 向 影 
10 s 时 长 的 文件 可 以 被 切割 成 999 条 数据 记录 ， 这 些 表征 内 涵 。“” 响 ， 所 以 需要 加 大 动量 项 系数 T 的 取 值 来 增强 这 种 效果 。 
的 音乐 数据 在 短 时 内 可 以 保持 能 量 的 相对 平稳 ， 但 当时 间 跨 度 b) 当 9 > 180r 时 ， 前 一 次 训练 的 权 值 调整 量 与 当前 负 梯 度 广 


T 


较 大 时 ， 将 会 存在 明显 的 能 量 的 差异 性 分 布 。 因 此 ， 本 研究 在 向 相反 ,表明 前 一 次 训练 的 结果 对 此 次 训练 有 较 大 的 负 向 影响 ， 

进行 深度 玻 尔 兹 曼 机 建 模 的 过 程 中 ， 将 平均 场 理 论 引 入 模型 的 因此 有 必要 减 小 动量 项 系数 下 的 取 值 来 削弱 这 种 效果 。 

训练 ， 目 的 是 将 一 个 音乐 片段 中 偏离 整体 能 量 均衡 的 样本 点 的 在 权 值 修正 公式 中 添加 动量 项 系数 能 够 充分 考虑 到 网 络 在 

影响 效果 削弱 , 从 而 使 训练 得 到 的 网 络 参数 更 有 利于 特征 提取 。 过 去 的 训练 中 所 累积 的 学 习 经 验 ， 有 效 避 免 网 络 学 习 过 程 中 的 

平均 场 理 论 的 核心 思想 是 通过 随机 变量 均值 的 函数 近似 估 ” ”大 规模 震荡 现象 ， 一 定 程度 上 提升 网 络 的 训练 速度 。 

计 随 机 变量 的 函数 的 均值 。 将 其 应 用 于 深度 玻 尔 兹 曼 机 建 模 的 。” 2.3 深度 玻 尔 兹 曼 机 的 训练 

关键 点 就 在 于 要 引入 一 个 具有 因子 分 解 结构 的 近似 概率 分 布 对 深度 玻 尔 兹 曼 机 的 训练 包含 两 个 阶段 : 

q(hx|v) = Migh = 1|v), 通 过 计算 q(hyxi; = 1|v) SEXE EC Je: B EAE 1) 逐 层 贪 禁 预 训练 

p(h = 1|v)， 并 结合 平均 场 理 论 估计 逐 层 预 训练 方法 是 神经 网 络 突破 隐 层 数目 限制 ， 针 对 传统 

hy; = p(hy; = 1|v) = q(hxi 二 1|v)。 估计 后 验 概率 的 平均 场 ” 训练 算法 易 陷 入 局 部 最 优 的 有 效 解决 方案 。 其 核心 思路 是 化 整 

算法 如 下 : 为 零 ， 将 整个 网 络 拆 分 为 多 个 独立 的 网 络 层 ， 自 底 向 上 ， 每 次 
估计 后 验 概率 的 平均 场 算法 只 训练 网 络 的 一 个 层次 ， 前 一 层 的 输出 作为 后 一 层 的 输入 ， 逐 
输入 ;可 视 向 量 v， 权 值 矩 阵 Wz、 隐 含 层 偏 置 瑟 (2<kxm) 、 网 络 结构 信 层 依次 提取 数据 特征 ,尽管 针对 各 个 层次 的 训练 是 独立 进行 的 ， 
息 、 激 活 函 数 Sigmoid。 但 提取 的 特征 量 是 连贯 的 ， 层 次 越 高 ， 抽 取 的 特征 量 的 概括 能 
AH: q(hy; = 1|v), 2«kem, 1<i<nyo 力 就 越 强 。 故 而 ， 在 逐 层 贪 禁 预 训练 中 ， 特 征 的 抽象 程度 是 逐 
hj; = sigmoid(Y.; w;v; + Y; wv; + bj) EXE ER. 
hy; = sigmoid(Y.; 2wi hi_ 1; + bř) 2sksr-1; 2) 参数 微调 
hmi = sigmoid(Y.; wi hy, 1 + Yjwg yj br) 第 一 阶段 的 逐 层 预 训练 是 自 底 向 上 的 一 个 正 向 的 训练 过 程 ， 
for t-1:n do 而 参数 微调 阶段 则 采用 神经 网 络 的 经 典 算法 一 一 BP 算法 , 反 向 
hi, = sigmoid(Y.; wiv + Xj wahzj 4 bi) 调整 整个 网 络 的 权 值 系数 与 各 层次 的 偏 置 量 。 当 所 有 样本 数据 
hi, = sigmoid(Y.; w hi. + Xj wg hri; bb), 2xksm-1; 完成 一 次 训练 后 ， 首 先 计算 实际 输出 与 期 望 输出 间 的 差 值 ， 该 
hmi = sigmoid(Yj who, 1 + Pywi yy + be’) 误差 值 即 为 网 络 反 向 调整 的 输入 数据 ， 整 个 网 络 修正 就 是 由 训 

练 误差 触发 的 ， 而 调整 的 方向 是 使 误差 减 小 的 方向 。 


Lad ; 
Er = Jahi — hii ) > 15km; 


3 真实 验 
If(0,«0 and 0;«0 and 0,<0 and»=+and 0, « 0) break; f 实验 


end for 本 文 实验 的 硬件 环境 如 表 1 所 示 。 
q (hxi = 1|v)-hy;; 1sksm dl 实验 设备 参数 
2.2 动量 项 名 称 参数 
动量 项 系数 表示 在 网 络 训练 过 程 中 ， 本 次 训练 引起 的 权 值 处 理 器 Intel Core?" i7-7700K CPU @ 4.20 GHz 4.20 GHz 
变化 量 受 前 一 次 训练 引起 的 权 值 变化 量 的 影响 程度 。 动 量 项 系 内 存 (RAM) 16 GB 
数 越 大 ， 意 味 着 历史 训练 对 当前 训练 产生 的 影响 就 越 大 ， 但 这 显卡 NVIDIA GeForce GTX 1050 Ti 
种 影响 作用 是 否 对 整体 训练 有 益 则 要 视 具 体 情况 而 定 。 根 据 动 


量 项 的 定义 ， 该 系数 一 般 被 添加 在 权 值 修正 公式 中 ， 如 式 (7) 所 31 数据 预 处 理 

E 前 ， 在 音乐 文化 领域 形成 的 较为 完善 的 乐器 分 类 体系 主 
要 包括 三 类 : 中 国 的 古典 乐器 分 类 体系 、 印 度 《 戏 艺 手册 》 中 

赴 述 的 乐器 分 类 体系 和 源 自 西欧 布鲁塞尔 音乐 学 院 的 乐器 分 类 

其 中 : Aw 代 表 权 值 修正 量 ，p 代 表 权 值 学 习 率 ; E 代表 网 络 结 ”体系 。 本 研究 采用 的 是 应 用 最 广泛 的 四 类 划分 的 欧洲 乐器 分 类 


` 


Aw(n + 1) = -pE '(w(n))  1(1 — cos 8 )Aw(n) (7) 


201804.02170v1 


chinaXiv 


体系 。 在 该 乐器 分 类 系统 中 


H 


驴 乐 类 和 和 气 柱 类 ， 分 类 依据 是 与 
质 。 对 上 述 四 类 乐器 划分 情况 的 描述 及 


可 将 乐器 分 为 乐 体 类 、 革 膜 类 、 
致 震动 发 音效 果 不 同 的 乐器 材 
体 乐器 示例 在 表 2 中 


列 示 。 
表 2 欧洲 乐器 分 类 体系 
乐器 类 别 类 别 描述 乐器 示例 
乐器 部 件 的 制造 材料 为 无 任何 张 
乐 体 类 B, p K 
力 的 材质 
乐器 部 件 的 制造 材料 为 有 张力 的 
OR 鼓 类 乐器 
革 或 膜 
乐器 的 震动 发 音 来 自 于 有 张力 的 钢琴 ;提琴 ;扬琴 
弦 乐 类 
EZA 竖琴 ， 吉 他 
KH. Au. mS 


气 柱 类 乐器 的 震动 发 音 来 自 于 空气 柱 


10s 长 度 的 音乐 片段 , 该 片段 即 为 预 处 至 


本 文 实验 所 选 乐器 为 弦 乐 类 乐器 中 的 钢琴 、 扬 琴 、 小 
和 吉他 ; 以 及 气 柱 类 乐器 中 的 萨克斯 风 。 实 验 数 据 来 自 于 分 别 
5 类 单独 乐器 演奏 的 纯音 乐 无 损 文件 ， 应 用 音乐 编辑 软件 
Cool Edit 对 音频 文件 进行 采样 , 采样 率 取 44.1khz( 即 每 秒 采 样 
44100 次 ， 该 采样 率 为 理 


ie ER CD 音质 界限 )， 将 文件 切割 为 


乐器 对 应 的 训练 数据 及 测试 数据 分 布 情况 如 表 3 所 示 。 


环节 的 输入 数据 。 各 类 


0.54 — 0.46cos E]. 0OznzN-1 
其 他 

傅 里 叶 变 换 的 作用 是 将 语音 信号 从 时 域 变换 到 频 域 ， 该 操 
作 在 分 帧 加 窗 完成 后 进行 。 
3.2 ”搭建 深度 玻 尔 兹 曼 机 模型 

本 文 构 建 的 深度 玻 尔 效 曼 机 的 网 络 结构 为 300-500-1000- 
500-5， 其 中 ， 输 入 层 的 神经 元 个 数 是 300。 实 际 上 ， 单 位 长 度 
为 10s 的 音频 文件 经 过 分 帧 加 窗 等 预 处 理 操作 后 被 分 制 为 了 
999x882 的 频 域 数 据 矩 阵 ， 经 过 多 次 调整 输入 神经 元 数目 ， 发 
现 从 一 个 样本 的 882 个 幅 值 中 随机 选取 300 个 值 作 为 输入 数据 
对 最 终 分 类 结果 的 影响 并 不 大 ， 但 由 于 神经 元 数目 减少 了 ， 网 
络 整 体 训练 速度 得 到 明显 提升 。 文 章 探讨 的 是 $ 种 乐器 的 分 类 
情况 ， 因 此 网 络 输出 层 的 神经 元 个 数 为 5; 三 个 隐 含 层 的 神经 
元 个 数 分 别 为 500,1000 和 500。 本 文 在 实验 阶段 分 别 尝 试 了 隐 
含 层 数目 为 2,3,4, 的 情况 , 发 现 仅 有 2 个 隐 含 层 时 , 处 理 该 问题 
需要 更 多 的 神经 元 数目 ， 训 练 速 度 及 精度 均 不 够 理想 ; 而 含有 
4 个 隐 含 层 的 神经 网 络 的 训练 效果 与 含 3 个 隐 含 层 时 不 相 上 下 ， 
但 训练 时 间 明 显 加 长 ， 故 最 终 选 择 隐 含 层 数 目 为 3 的 深度 网 络 
结构 展开 对 比 实验 。 深 度 玻 尔 兹 曼 机 模型 训练 过 程 中 的 相关 参 
数 如 表 4 所 示 。 


w(n) = 


(8) 


RA ， 逐 层 预 训练 过 程 网 络 结构 参数 


网 络 层 。 神经 元 数目 权 值 学 习 率 偏 置 学 习 率 初始 动量 项 最 终 动量 项 迭代 次 数 


表 3 实验 数据 RBM1 300-500 0.005 0.05 0.6 0.9 200 
mm 训练 数据 (长 度 为 10s 的 测试 数据 (长 度 为 10s 的 RBM2 500-1000 0.001 0.05 0.6 0.9 100 
音乐 片段 数 ) 音乐 片段 数 ) RBM3 1000-500 0.001 0.05 0.6 0.9 100 
钢琴 69 11 
gz - " 33 实验 结果 
吉他 60 10 由 于 神经 网 络 的 权 值 系数 是 随机 产生 的 ， 为 排除 一 次 性 极 
小 提琴 63 17 端 情况 的 影响 ， 本 文 在 固定 一 组 网 络 参 数 的 情况 下 进行 20 次 
萨克斯 风 48 9 实验 并 取 20 次 输出 的 平均 值 作 为 最 终结 果 。 本 章 设计 了 三 组 


其 中 ， 有 具体 的 数据 预 处 理 


号 的 高 频 分 辨 率 。 分 帧 和 


片段 进行 处 理 ; 例如 本 文 在 44.1 kHz 的 采 档 
音乐 片段 就 包含 441 000 个 样本 点 ， 计 算 机 很 难 进行 一 次 性 整 


环节 包括 预 加 重 、 分 帧 、 加 窗 及 
傅 里 叶 变 换 。 预 加 重 是 要 加 强 音 频 信号 的 高 频 部 分 ， 即 增强 信 
的 目的 是 把 较 长 的 数据 流 切 割 成 较 小 的 
EZF, —^ 10s 的 


快速 


体 处 理 ， 而 另 一 个 重要 的 原因 则 是 音频 信号 是 一 种 随时 间 变 化 


的 信号 ， 但 在 较 短 的 时 间 间 隔 内 可 以 认为 信号 几乎 不 变 《〈 即 语 


音信 号 的 短 时 平稳 性 ) ， 


所 以 有 必要 对 数据 进行 分 段 处 理 。 


本 


文采 用 的 帧 长 为 20 ms, 帧 移 (前 后 两 帧 重 闭 的 部 分 ) 为 10 ms, 
完成 分 帧 处 理 后 ， 一 个 10 s 的 音乐 片段 被 划分 为 999 个 样本 数 


据 。 加 窗 是 为 了 在 分 帧 处 理 后 减少 由 于 不 满足 周期 截断 而 造成 
的 谱 污 露 误差 ， 从 而 使 时 域 信 号 在 进行 傅 里 叶 变换 时 尽 可 能 满 
足 周期 性 要 求 。 本 文采 用 汉 明 窗 函 数 进行 加 窗 操作 ， 其 公式 如 


模型 的 对 比 实验 ， 分 别 是 ，a) 深 度 玻 尔 兹 曼 机 作为 特征 提取 器 
搭配 顶层 Softmax 分 类 器 (DBM+Softmax 组 合 模型 )，b) 单 一 分 
类 器 支持 向 量 机 (对 于 传统 分 类 算法 SVM 的 训练 同样 是 取 20 
次 实验 的 平均 值 结果 ); c) 深 度 玻 尔 兹 曼 机 搭配 顶层 支持 向 量 机 
分 类 器 (DBM+SVM 组 合 模型 )。 采 用 上 述 三 种 模型 分 别 对 表 3 
中 的 5 类 乐器 数据 进行 训练 和 测试 。 其 中 ， 训 练 集 共 有 长 度 为 
10s 的 音乐 片段 297 个 ,测试 集 共有 同类 标准 的 音乐 片段 56 个 ， 
三 组 实验 的 分 类 结果 如 表 5 所 示 。 
表 5 3 组 模型 的 分 类 结果 对 比 情况 


aa VAREDE 训练 集 分 类 测试 集 错 分 音 测试 集 分 类 
i 乐 片段 数 AMZ 乐 片段 数 准确 率 
SVM 67 71.4496 15 73.2196 
DBM- 
32 89.2396 7 87.5% 
Softmax 
DBM+ 
29 90.24% 6 89.29% 


SVM 


:201804.02170v1 


chinaXiv 


录用 稿 


表 5 中 三 组 模型 的 实验 对 比 结果 可 知 , DBM+SVM 组 合 
模型 对 五 种 乐器 的 分 类 准确 率 最 高 , 为 89.29%; DBM+Softmax 
组 合 模型 的 分 类 准确 率 紧 随 其 后 ， 为 87.5%， 前 两 者 的 差距 在 
2% 以 内 ;而 单一 分 类 器 SVM 的 分 类 准确 率 则 明显 低 于 前 两 组 
深度 学 习 组 合 模型 。 但 将 SVM 作为 深度 玻 尔 兹 曼 机 模型 的 顶 
层 分 类 器 在 训练 数据 的 过 程 中 时 间 消 耗 较 多 ， 而 且 随 着 数据 量 
的 增 大 , 其 在 时 间 损 耗 方面 的 缺陷 更 加 明显。 相反 ,以 Softmax 
作为 网 络 项 层 分 类 器 的 深度 玻 尔 兹 曼 机 模型 在 训练 时 间 上 优势 
显著 ， 同 时 其 分 类 准确 率 也 与 DBM+SVM 组 合 模型 相差 无 几 。 
因此 ， 在 面 对 大 体 量 数据 的 训练 任务 时 ， 选 择 哪 一 种 模型 更 加 
合适 还 要 根据 任务 的 时 间 敏 感性 来 决定 。 


4 ”结束 语 


特征 量 的 表达 能 力 与 分 类 器 性 能 是 影响 乐器 分 类 结果 的 两 
个 最 主要 的 因素 ， 而 深度 学 习 强 大 的 特征 提取 能 力 可 以 为 顶层 
分 类 器 提供 概括 性 更 强 的 音频 特征 量 ， 但 就 目前 该 领域 的 研究 
果 来 看 ， 将 深度 学 习 技 术 应 用 于 乐器 分 类 问题 的 研究 相对 较 
少 。 本 文 以 深度 玻 尔 效 曼 机 模型 作为 特征 提取 器 提取 5 类 乐器 
纯音 乐 文件 的 深度 学 习 特 征 量 ， 并 在 神经 网 络 顶 层 分 别 设置 
SVM 5 Softmax 作为 分 类 器 ， 构 建 DBM+SVM 和 
DBM+Softmax 组 合 模型 , 并 在 相同 的 训练 数据 集 与 测试 数据 集 
上 开展 实验 , 结果 显示 DBM+SVM 模型 的 分 类 准确 率 最 高 , 但 
时 间 消 耗 也 最 大 , DBM+Softmax 在 训练 时 间 上 优势 明显 且 准 确 
率 与 前 者 相 比 差距 不 大 。 在 数据 规模 较 大 且 时 间 敏 感性 较 强 的 
分 类 任务 中 , DBM+Softmax 组 合 模型 的 应 用 效果 应 该 更 好 。 文 
章 另 外 还 单独 采用 传统 分 类 模型 SVM 作为 浅 层 模型 的 代表 与 
以 上 两 种 深度 学 习 组 合 模型 进行 分 类 性 能 对 比 研 究 ， 结 果 显 示 
SVM 分 类 器 对 5 类 乐器 的 识别 率 明显 低 于 基于 深度 玻 尔 兹 曼 
机 的 分 类 方法 ， 从 而 展现 了 深度 学 习 方法 强大 的 学 习 与 建 模 能 
力 以 及 其 在 乐器 分 类 领域 的 应 用 前 景 。 

深度 学 习 在 乐器 分 类 领域 的 应 用 尚 属 起 步 阶 段 ， 许 多 问题 
有 待 进一步 研究 ， 如 样本 数据 的 离 群 点 检测 及 如 何 有 效 提升 音 
频 分 类 模型 的 稀疏 表达 等 都 是 未 来 的 研究 热点 。Zhigang Wang 
等 人 0 提出 了 一 种 增 量 MI 离 群 点 检测 算法 Inc I-MLOF, PJA 
实现 批 处 理 模式 下 的 多 实例 异常 值 检 测 。 文 献 [20] 对 非 监 督学 
习 方 法 SRC 进行 了 改进 , 提出 了 一 种 基于 层次 稀 疏 表示 的 分 类 
方法 ， 它 将 单 层 稀 琉 表示 增强 为 深度 字典 形式 的 多 层次 表达 ， 
通过 在 多 特征 数据 集 上 的 训练 ， 验 证 了 其 性 能 优势 。 上 述 文献 
提出 的 方法 也 是 日 后 乐器 分 类 研究 可 以 考虑 借鉴 的 新 思路 。 


| 


T 


[1] Marques J, Moreno P J. A study of musical instrument classification using 
gaussian mixture models and support vector machines [R]. [S. 1] : Compaq 
Corporation Cambridge Research Laboratory, 1999. 

[2] Liu J, Xie L. SVM-based automatic classification of musical instruments 


[C]/ Proc of International Conference on Intelligent Computation 


10] 


[11] 


[12] 


[13] 


[14] 


[15] 


[16] 


Chi 


n : 
A 畅 等: 基于 深度 玻 尔 次 曼 机 的 乐器 分 类 问题 研究 


Technology and Automation. Washington DC: IEEE Computer Society, 
2010: 669-673. 

Zlatintsi A, Maragos P. Am-fm modulation features for music instrument 
signal analysis and recognition [C]// Proc of Signal Processing Conference. 
2014: 2035-2039. 

Zhao ZengShun, Feng Xiang, Wei Fang, et al Learning representative 
features for robot topological localization [J] International Journal of 
Advanced Robotic Systems, 2013, 10 (4) . 

EG. 基于 深度 学 习 的 音乐 流派 及 中 国 传统 乐器 识别 分 类 研究 [D]. 
南京 : 南京 理工 大 学 , 2017. (Wang Fang. A study of the classification of 
music genre and Chinese traditional instruments based on deep learning. [D]. 
NanKing: Nanjing University of Science and Technology, 2017) 

Hinton G E, Srivastava N, Krizhevsky A, et al. Improving neural networks 
by preventing co-adaptation of feature detectors [J]. Computer Science, 
2012, 3 (4): págs. 212-223. 

Hinton G E, Salakhutdinov R R. Reducing the dimensionality of data with 
neural networks. [J]. Science, 2006, 313 (5786): 504. 

Bengio Y. Learning deep architectures for AI [J]. Foundations and Trends in 
Machine Learning, 2009, 2 (1): 1-127. 

Hastad J, Goldmann M. On the power of small-depth threshold circuits [J]. 
Computational Complexity, 1991, 1 (2): 113-129. 

郭 丽 丽 ， 丁 世 飞 . 深度 学 习 研究 进展 [J]. 计算 机 科学 , 2015, 42 (3): 29. 
(Guo LiLi, Ding ShiFei. Research Progress on Deep Learning. [J] Computer 
Science, 2015, 42 (3): 29.) 

Bengio Y, Delalleau O. On the expressive power of deep architectures [C]// 
Proc of International Conference on Discovery Science. [S. 1. ] : Springer- 
Verlag, 2011. 

Salakhutdinov R, Hinton G. Deep Boltzmann machines [J]. Journal of 
Machine Learning Research, 2009, 5 (2): 1967-2006. 

dE GARS 一 种 基于 深度 玻 尔 座 曼 机 的 半 监 督 典型 相关 分 析 算 法 [J]. 
河南 科技 大 学 学 报 : 自然 科学 版 , 2016, 37 (2): 47-51. (Jiang Wen, Qi Lin. 
A semi supervised canonical correlation analysis algorithm based on deep 
Boltzmann machine. [J] Journal of Henan University of Science and 
Technology: Natural Science, 2016, 37 (2): 47-51.) 

张 娟 ， 杨 建功 , 汪 西 莉 . KARAR GE MARETE [J]. 
小 型 微型 计算 机 系统 , 2017, 38 (5): 1130-1133. (Zang Juan, Yang Jian 
Gong, Wang XiLi. Conditional Deep Boltzmann Machine Face Image 
Segmentation Model. [J]. Journal of Chinese Computer Systems, 2017, 38 
(5): 1130-1133. ) 

Ka, FAm, ADAE. 一 种 基于 社交 影响 力 和 平均 场 理论 的 信息 传 
播 动力 学 模型 [J]. 物理 学 报 , 2017, 66 (3): 227-239. (Xiao Yun Peng, Li 
SongYang, Liu YanBing. An information diffusion dynamic model based on 
social influence and mean field theory [J]. Acta Phys Sin, 2017, 66 (3): 227- 
239.) 

陈 昨 ， 孙 建华, 高 小 杰 , 等 . 一 种 基于 平均 场 的 无 线 自 组 织 网 络 时 钟 同 


步 方法 [J] 计算 机 学 报 , 2016, 39 (5): 893-904. (Chen Wu, Sun JianHua, 


201804.02170v1 


chinaXiv 


录用 稿 


Gao XiaoJie, et al. A clock synchronization method for Ad hoc networks 
based on mean field. [J] Chinese Journal of Cumputers, 2016, 39 (5): 893- 
904. ) 

[17] & Ak, HER, YER. 大 型 自行 车 共享 系统 的 平均 场 极 限 理论 与 排队 
模型 研究 [J]. 运筹 与 管理 , 2017, 26 (6): 107-116. (Li Quan lin, Fan 
RuiNa, Xu Liang. Research on mean field limit theory and queuing model 
for large-scale bike-sharing systems [J]. Operations Research and 
Management Science, 2017, 26 (6): 107-116) 


[18] Swanston D J, Bishop J M, Mitchell R J. Simple adaptive momentum: new 


O 
23. 
"D 
- 
I 
m 


A H, $: ATRAIRE EUM IR S EIS LUST SC 


algorithm for training multilayer perceptrons [J]. Electronics Letters, 1994, 
30 (18): 1498-1500. 

[19] Wang Zhigang, Zhao Zengshun, Weng Shifeng. et al, Incremental multiple 
instance outlier detection [J]. Neural Computing & Applications, 2015, 26 
(4) 957-968. 

[20] Wang Zhengxia, Teng Shenghua, Liu Guodong, et al, Hierarchical sparse 
representation with deep dictionary for multi-modal classification. [J]. 


Neurocomputing, 2017, 253 (C): 65-69. 


